#!/usr/bin/python
# -*- coding: UTF-8 -*-
import nltk
import urllib.request as ur
from bs4 import BeautifulSoup

response = ur.urlopen('http://www.nltk.org/_modules/nltk/util.html#clean_html')
# 用urllib.request函数爬程序的需要decode一下，转换成utf-8
html = response.read().decode("utf-8")
# 指定HTML解析器
clean = BeautifulSoup(html, "html.parser").getText()
tokens = [tok for tok in clean.split()]
# 说白了 Python3的字符串的编码语言用的是unicode编码，由于Python的字符串类型是str，在内存中以Unicode表示，
# 一个字符对应若干字节，如果要在网络上传输，或保存在磁盘上就需要把str变成以字节为单位的bytes
# python对bytes类型的数据用带b前缀的单引号或双引号表示：
print(tokens[0:100])
Freq_dist_nltk = nltk.FreqDist(tokens)

print(Freq_dist_nltk)
for k, v in Freq_dist_nltk.items():
    print(str(k) + ":" + str(v))
